Off-policy evaluation (OPE) attempts to predict the performance of counterfactual policies using log data from a different policy. We extend its applicability by developing an OPE method for a class of both full support and deficient support logging policies in contextual-bandit settings. This class includes deterministic bandit (such as Upper Confidence Bound) as well as deterministic decision-making based on supervised and unsupervised learning. We prove that our method's prediction converges in probability to the true performance of a counterfactual policy as the sample size increases. We validate our method with experiments on partly and entirely deterministic logging policies. Finally, we apply it to evaluate coupon targeting policies by a major online platform and show how to improve the existing policy.
translated by 谷歌翻译
面向目标的意见单词提取(TOWE)是一项精细的情感分析任务,旨在从句子中提取给定意见目标的相应意见单词。最近,深度学习方法在这项任务上取得了显着进步。然而,由于昂贵的数据注释过程,TOWE任务仍然遭受培训数据的稀缺性。有限的标记数据增加了测试数据和培训数据之间分配变化的风险。在本文中,我们建议利用大量未标记的数据来通过增加模型对变化分布变化的暴露来降低风险。具体而言,我们提出了一种新型的多透明一致性正则化(MGCR)方法,以利用未标记的数据并设计两个专门用于TOWE的过滤器,以在不同的粒度上过滤嘈杂的数据。四个TOWE基准数据集的广泛实验结果表明,与当前的最新方法相比,MGCR的优越性。深入分析还证明了不同粒度过滤器的有效性。我们的代码可在https://github.com/towessl/towessl上找到。
translated by 谷歌翻译
用快速自动驾驶汽车导航越野,取决于强大的感知系统,该系统与不可传输的地形区分开来。通常,这取决于语义理解,该语义理解基于人类专家注释的图像的监督学习。这需要对人类时间进行大量投资,假定正确的专家分类,并且小细节可能导致错误分类。为了应对这些挑战,我们提出了一种方法,可以以一种自我监督的方式从过去的车辆体验中预测高风险的地形。首先,我们开发了一种将车辆轨迹投射到前摄像头图像中的工具。其次,在地形的3D表示中的遮挡被过滤掉。第三,在蒙面车辆轨迹区域训练的自动编码器根据重建误差确定低风险和高风险地形。我们通过两种型号和不同的瓶颈评估了我们的方法,并使用了两个不同的训练站点和四轮越野车。与来自类似地形的两个独立的语义标签的独立测试集比较,表明能够将地面作为低风险和植被为高风险,精度为81.1%和85.1%。
translated by 谷歌翻译
腿部机器人可以穿越各种各样的地形,其中一些可能对轮式机器人(例如楼梯或高度不平衡的表面)具有挑战性。然而,四倍的机器人面临湿滑表面上的稳定挑战。可以通过切换到更保守和稳定的运动模式,例如爬网模式(始终与地面三英尺接触)或安排模式(一只脚一次接触)来防止这种方法来解决这一问题。潜在跌落。为了应对这些挑战,我们提出了一种从过去的机器人体验中学习模型的方法,以预测潜在的失败。因此,我们仅基于本体感受的感觉信息触发步态切换。为了学习这种预测模型,我们提出了一个半监督的过程,用于在两个阶段中检测和注释地面真相滑移事件:我们首先在步态数据的时间序列序列中使用无可教力的异常检测器检测到异常发生,然后,然后,然后检测到异常情况。在重播模拟中,通过人类知识进行了验证,以断言滑移事件。这些注释的滑移事件随后用作地面真理示例,以训练整体决策者,以预测跨地形的滑移概率以进行遍历。我们分析了由腿部机器人在具有湿滑地形的多个站点上记录的数据分析模型。我们证明,潜在的滑移事件可以预测在潜在跌倒之前的720毫秒之前,平均精度大于0.95,平均F评分为0.82。最后,我们通过将其在腿部机器人上部署并根据滑移事件检测切换其步态模式来实时验证我们的方法。
translated by 谷歌翻译
重复是一种反应,可以在对话中重复上一位演讲者的话语中的单词。如语言研究所述,重复对于与他人建立信任至关重要。在这项工作中,我们专注于重复生成。据我们所知,这是解决重复产生的第一种神经方法。我们提出了加权标签平滑,一种平滑方法,用于明确学习在微调过程中重复哪些单词,以及一种重复评分方法,可以在解码过程中输出更合适的重复。我们进行了自动和人类评估,涉及将这些方法应用于预先训练的语言模型T5来产生重复。实验结果表明,我们的方法在两种评估中都超过了基线。
translated by 谷歌翻译
在远程多机器人自主探索任务(例如搜索和响应)中,语义对象映射在不确定的,感知下降的环境中是重要且具有挑战性的。在此类任务期间,需要高度召回,避免缺少真正的目标对象,而高精度对于避免在假阳性上浪费宝贵的操作时间也至关重要。鉴于视觉感知算法的最新进展,前者在很大程度上可以自主解决,但是如果没有人类操作员的监督,后者很难解决。但是,诸如任务时间,计算要求,网络网络带宽等诸如操作限制可能使操作员的任务变得不可行,除非得到适当管理。我们提出了早期的召回,较晚的精度(Earlap)语义对象映射管道,以解决此问题。 Earlap在DARPA Subterranean Challenge中被Team Costar使用,在那里成功发现了机器人团队遇到的所有工件。我们将在各种数据集上讨论Earlap的这些结果和性能。
translated by 谷歌翻译
在这项工作中,我们介绍了基于补丁的以对象为中心的视频变压器(POVT),这是一种基于区域的新型视频生成体系结构,利用以对象为中心的信息来有效地对视频中的时间动态进行建模。我们在视频预测中通过自回旋变压器在压缩视频的离散潜在空间中进行了先前的工作,并通过边界框进行了更改,以增加对象以对象为中心的信息。由于以对象为中心表示的更好的可压缩性,我们可以通过允许模型仅访问对象信息以获取更长的视野时间信息来提高训练效率。当对以对象为中心的各种困难数据集进行评估时,我们的方法可与其他视频生成模型更好或相等的性能,同时在计算上更有效和可扩展。此外,我们表明我们的方法能够通过边界框操作执行以对象为中心的可控性,这可能有助于下游任务,例如视频编辑或视觉计划。示例可在https://sites.google.com/view/povt-public} {https://sites.google.com/view/povt-public获取
translated by 谷歌翻译
工业连接器插入任务需要亚毫米定位并掌握插头的姿势补偿。因此,对插头和插座之间的相对姿势的高度准确估计对于完成任务至关重要。世界模型是视觉运动控制的有前途的技术,因为它们获得了适当的状态表示,以共同优化特征提取和潜在动力学模型。最近的研究表明,Newtonianvae是一种世界模型的一种类型,可获得等同于从图像到物理坐标的映射的潜在空间。在牛顿维尔的潜在空间中可以实现比例控制。但是,在物理环境中应用牛顿台上的牛顿工业任务是一个开放的问题。此外,现有的框架不考虑在获得的潜在空间中的掌握姿势补偿。在这项工作中,我们提出了对触觉敏感的Newtonianvae,并将其应用于物理环境中带有姿势变化的USB连接器插入。我们采用了凝胶型触觉传感器,并估计了插头的掌握姿势补偿的插入位置。我们的方法以端到端的方式训练潜在空间,不需要其他工程和注释。在获得的潜在空间中可以使用简单的比例控制。此外,我们证明了原始的牛顿病在某些情况下失败了,并证明了域知识诱导可以提高模型的准确性。可以使用机器人规范和掌握姿势误差测量轻松获得此域知识。我们证明了我们提出的方法在物理环境中的USB连接器插入任务中实现了100 \%的成功率和0.3 mm的定位精度。它优于SOTA CNN的两阶段目标姿势回归,并使用坐标转换掌握了姿势补偿。
translated by 谷歌翻译
在本研究中,我们提出了一种基于病例的新型图像检索(SIR)方法,用于苏木精和曙红(H&E)染色的恶性淋巴瘤的组织病理学图像。当将整个幻灯片图像(WSI)用作输入查询时,希望能够通过重点关注病理上重要区域(例如肿瘤细胞)中的图像斑块来检索相似情况。为了解决这个问题,我们采用了基于注意力的多个实例学习,这使我们能够在计算案例之间的相似性时专注于肿瘤特异性区域。此外,我们采用对比度距离度量学习将免疫组织化学(IHC)染色模式纳入有用的监督信息,以定义异质性恶性淋巴瘤病例之间的适当相似性。在对249例恶性淋巴瘤患者的实验中,我们证实该方法比基线基于病例的SIR方法表现出更高的评估措施。此外,病理学家的主观评估表明,我们使用IHC染色模式的相似性度量适用于代表恶性淋巴瘤H&E染色组织图像的相似性。
translated by 谷歌翻译
在多代理路径查找(MAPF)问题中,一组在图表上移动的代理必须达到其自身各自的目的地,而无需间间冲突。在实用的MAPF应用中,如自动仓库导航,偶尔有数百个或更多代理商,MAPF必须在终身基础上迭代地解决。这种情景排除了离线计算密集型最佳方法的简单调整;因此,可扩展的子最优算法用于此类设置。理想的可扩展算法适用于可预测计算时间的迭代方案和输出合理的解决方案。对于上述目的,在本研究中,提出了一种具有回溯(PIBT)的优先级继承的新型算法以迭代地解决MAPF。 PIBT依赖于适应性优先级方案,专注于多个代理的相邻运动;因此它可以应用于若干域。我们证明,无论其数量如何,当环境是图形时,所有代理都保证在有限的时间内达到目的地,使得所有相邻节点属于一个简单的周期(例如,双绞线)。实验结果涵盖了各种场景,包括真正的机器人演示,揭示了所提出的方法的好处。即使用数百种代理商,PIBT也会立即产生可接受的解决方案,可以解决其他事实上MAPF方法的大型情况。此外,PIBT在运行时和解决方案质量的自动化仓库中的传送包中的迭代方案上占据了现有方法。
translated by 谷歌翻译